Dans un post de blog, Apple vient d'annoncer avoir amélioré les performances lors de l'étape de l'inférence dans les LLM (Large Language Models, les grands modèles de langage comme ChatGPT). Et cette annonce est intéressante sur deux points.
Le premier, c'est que les gains sont importants. La méthode développée chez Apple porte le nom de ReDrafter, elle est open source et elle permet de multiplier les performances par 2,7. L'inférence est une étape importante pour les utilisateurs : elle intervient quand une personne pose une question à une « IA ». La solution d'Apple accélère donc un moment crucial : celui où vous attendez une réponse. La technologie a été intégrée dans les bibliothèques de Nvidia, qui permettent d'accéder aux unités dédiées des cartes graphiques de Nvidia. La marque a d'ailleurs aussi posté un message sur un blog technique, pour donner des détails.
Les gains sont intéressants, car ils peuvent avoir un effet indirect. S'il est possible de simplement accélérer la livraison des données, il est (surtout) aussi possible de réduire le nombre de cartes nécessaires et donc la consommation des serveurs qui fournissent la réponse, tout en réduisant la latence dans la fourniture des réponses.
Le second point est qu'Apple travaille avec Nvidia, ce qui n'est pas anodin. Dans le domaine graphique, les Mac ont abandonné les cartes GeForce depuis une grosse dizaine d'années et la rupture semblait consommée entre Apple et Nvidia. Mais Nvidia est un incontournable dans le domaine de l'IA, tant pour les performances de ses cartes que pour ses capacités à fournir le matériel nécessaire. Si Apple met en avant ses propres serveurs pour Apple Intelligence et travaillerait avec Broadcom pour des puces dédiées, une partie des infrastructures reposent tout de même probablement sur des cartes Nvidia, ne serait-ce que tout ce qui est délégué à OpenAI et ChatGPT.
Private Cloud Compute : comment Apple veut faire rimer « intelligence » et « confidentialité »